Основы корреляционного и регрессионного анализа

 

            Целью любого исследования, осуществляемого в настоящее время, является использование его результатов в будущем, или, иначе говоря, прогнозирование состояния изучаемого явления. Примерами такого прогнозирования заполнены учебники всех естественнонаучных и экономических дисциплин. При этом, желая изучать явление во взаимосвязи с другими явлениями или величинами, приходится выделять некоторые из них, влияющие на изучаемое, оценивать степень и «качество» влияния, то есть характер связи между изучаемым (основным в данном исследовании) и влияющими на него величинами качественного или количественного характера.

            В дальнейшем мы «основную», изучаемую, величину будем называть зависимой переменной и обозначать литерой y, прочие, влияющие на у, величины будем называть независимыми переменными и обозначать литерами  Как у, так и , будем считать числовыми.

            Различают два вида связей.

            Если значение зависимой переменной становится известным, как только известны значения независимых переменных, говорят о связи динамической или функциональной, поскольку в этом случае существует закон, по которому вычисляется у в зависимости  от ,

у = f(). Примеры таких связей: закон свободного падения тела; закон Ома; закон Бойля-Мариотта; связь между стоимостью единицы товара и ценой, уплаченной за партию его; зависимость производительности труда и затрат рабочего времени.

            Иначе обстоит дело, когда по значениям независимых величин можно установить лишь некоторую «среднюю» тенденцию в значениях зависимой переменной. Так, например, общепонятно, что между ростом человека и его весом существует зависимость, созданы таблицы такой зависимости, учитывающие еще и пол, и возраст, однако пользоваться ими можно лишь, опять же, «в среднем». Подобного рода связи называют корреляционными (от слова correlatio - соотношение - латынью), а задачей установления математической формы корреляционной связи занимается регрессионный анализ. Зависимая переменная у при этом рассматривается как случайная величина, а независимые переменные можно прямо или косвенно контролировать. Корреляционный анализ изучает совместное распределение всех измеряемых переменных с анализом точности оценивания одних величин через другие.

            В отличие от функциональной связи в регрессионном анализе речь идет об установлении функции регрессии  где символ  обозначает математическое ожидание случайной величины у при заданных значениях независимых переменных.

            Здесь важно заметить следующее.

В то время как независимые переменные  контролируемы, управляемы, а у является случайной величиной, то по данным эксперимента, в котором  приняли вполне конкретные значения, можно судить лишь об оценке параметра, связанного с распределением у, оценок же, как мы уже знаем, можно построить много.

            С точки зрения дальнейших применений желательно иметь оценку как можно более простого вида и которая удовлетворяла бы некоторому критерию оптимальности (подобному несмещенности, например, для оценок параметров).

            Из всех элементарных функций (исключая константу) наиболее простой является линейная, этот случай мы и изучим в дальнейшем детально как наиболее прозрачный с точки зрения идейной и в то же время дающий возможность для дальнейших обобщений.

Линейная регрессия и метод наименьших квадратов

 

            Опишем вначале математическую постановку задачи, считая, что изучается одна зависимая переменная у в присутствии одной независимой переменной х (так называемая задача парной регрессии).

            Пусть зависимость между х и у имеет вид

,

где - постоянные коэффициенты, называемые параметрами модели,

e-случайная величина с математическим ожиданием  0  и дисперсией  s2 .

            В этом случае уравнение регрессии превращается в уравнение прямой

.

            Предположим, что независимой переменной придали значения , в результате чего зависимая переменная приняла значения . В предположении линейной зависимости получаем n равенств

,

где - независимы и распределены так же, как e.

            Требуется по значениям пар () оценить неизвестные .

 

            Как мы уже знаем, каждая задача оценивания связана с некоторым критерием качества. В излагаемой нами теории таким критерием является критерий наименьших квадратов:  

            Запишем эту сумму иначе, так, чтобы была видна зависимость от :

.

            Теперь окончательно приходим к следующей задаче:

отыскать такие значения неизвестных параметров , чтобы функция

приняла наименьшее значение.

            Метод решения этой задачи известен из курса высшей математики.

            Находим частные производные функции Q и приравниваем их к нулю, в результате чего приходим к системе линейных уравнений

            После очевидных преобразований получаем систему

            Обозначим выборочные средние

                 ,     ,    

            В этих обозначениях после деления каждого уравнения системы на n она примет вид

а ее решение (искомые оценки коэффициентов уравнения регрессии) будет таким

            Если ввести еще обозначение  и преобразовать выражение для :

,

 

то оценка функции регрессии примет вид

.

 

Пример 29.1. Агент по продаже домов изучает зависимость между ценой дома у (в $ 1000) и общей его площадью х (в сотнях квадратных футов). С этой целью он произвел выборку из 15 домов и зафиксировал такие результаты:

Таблица 29.1

i

xi

yi

i

xi

yi

1

20.0

89.5

9

24.3

119.9

2

14.8

79.9

10

20.2

87.6

3

20.5

83.1

11

22.0

112.6

4

12.5

56.9

12

19.0

120.8

5

18.0

66.6

13

12.3

78.5

6

14.3

82.5

14

14.0

74.3

7

27.5

126.3

15

16.7

74.8

8

16.5

79.3

 

 

 

 

            Нанеся пары () на координатную плоскость, он получает так называемое корреляционное облако, вид которого позволяет предположить, что линейная зависимость между переменными не лишена оснований.

 

Рис. 29.1

 

            Приняв эту гипотезу, он вычисляет

а затем по полученным выше формулам оценки

.

            Теперь прямая регрессии имеет уравнение

.

            Ее график нанесем на корреляционное поле (рис. 29.2)

Рис. 29.2

u

Анализ коэффициентов уравнения регрессии при известном s2

 

            Можно показать, что оценки и коэффициентов и являются несмещенными независимо от того, как распределены случайные «добавки» .

            Для получения более точных сведений о свойствах оценок предположим, что  распределены нормально с указанными ранее параметрами, причем следует различать случаи, когда s2 известно или нет.

            Если s2 известно, то доказывается, что оценки распределены нормально, а их дисперсии равны

            и

.

            Обладая указанными сведениями, можно строить доверительные интервалы для и , а также производить проверку гипотез относительно их значений.

 

Пример 30.1 (продолжение примера 29.1). Допустим, что s2 известно и равно 169.

 

            В этом предположении имеем

 ,

 ,

а 95%-е доверительные интервалы будут таковы:

и

 ,

где  (см. таблицу прил. 1).

То есть

            и

 .

            Проверим гипотезу Но: а1=0 (она означает, что между х и у нет линейной связи) против альтернативы Н1 : а1¹0, при размере критерия a=0,05.

            В этом случае критическая область представляет собой внешность интервала (). Поскольку экспериментальное значение = 3,88 выходит за его границу, нулевая (Но) гипотеза отвергается.   u

 

            Сделаем еще одно важное замечание относительно дисперсии .

Желая сделать оценку коэффициента а1 (называемого коэффициентом регрессии) как можно точней, следует сделать ее дисперсию как можно меньше. Последнее ввиду равенства

означает, что значения независимой переменной следует выбирать на границах интервала ее изменения. То есть, если хотим произвести 4 наблюдения, то два из них следует произвести при х=х\, и два при х=х\\, где [х\\\ ] - отрезок допустимых значений контролируемой переменной.

 

Оценивание s2

 

            Полученная по методу наименьших квадратов оценка линии прямой регрессии является наилучшей, однако это вовсе не означает, что в действительности связь между х и у линейна. Судить о качестве оценивания можно по величине

 

,

представляющей собой наименьшее значение функции Q. Обозначение RSS является стандартным в компьютерных программах (например, в пакете Microsoft Excel - SSresid) и образовано начальными литерами выражения residual sum squares - остаточная сумма квадратов (разностей между настоящими значениями уi и значениями зависимой переменной, если бы регрессия была точной).

            Доказывается, что частное  является несмещенной оценкой s2 .

            Найдем выражение для  RSS, удобное для вычислений:

            где .

 

Пример 31.1 (продолжение примера 29.1). Считая теперь неизвестным, s2 , вычислим его оценку.

            Имеем по данным примера . Наконец, обозначив S2 оценку для s2 получаем:

  u

 

            Если считать модель   верной, то D[y(x)] = s2 , и оценка для s2 , построенная выше, дает возможность судить о «качестве» модели, сравнивая  S2 со средним  .

 

Анализ коэффициентов уравнения регрессии при неизвестном s2

 

            При неизвестном s2 дисперсии оценок и  заменяются  их оценками:

·      оценка дисперсии   ,

·      оценка дисперсии    .

            Указанные оценки дисперсий можно использовать для построения доверительных интервалов и проверки гипотез относительно параметров модели, следует лишь при этом опираться не на нормальное распределение, а на распределение Стьюдента с числом степеней свободы n-2.

            Так, если a » 0, то доверительные интервалы будут иметь вид

·      для ао:

·      для а1:

где - процентная точка распределения Стьюдента с числом степей свободы n-2.

 

Пример 32.1 (продолжение примера 29.1). Построим доверительные интервалы уровня доверия 0,95 для параметров и , считая s2 неизвестным и заменив его оценкой S2=168,91.

 

            В этом случае t(13; 0.975) = 2,16 и доверительный интервал для будет таким:

·      (-13,67;  50,35),

а для :

·      (2,17;  5,59).

 

            Как видим, оба интервала расширились, что объясняется уменьшением объема информации об условиях эксперимента.  u

 

            Проверка гипотезы Но: а1 = 0  против альтернативы Н1 : а1¹0 основывается на статистике

при этом критическая область имеет вид

Пример 32.2 (продолжение примера 29.1). Проверим гипотезу Но: а1=0 против альтернативы Н1 : а1¹0, при размере критерия a=0,05 в нашей задаче об агенте по продаже недвижимости.

 

            Все необходимые вычисления уже нами сделаны, остается лишь найти значение статистики  t :

·      .

            Поскольку 4,91 больше 2,16 , нулевая гипотеза отвергается.   u

 

 

Применение уравнения регрессии

Предсказание значения у при данном х

            Уравнение регрессии может быть использовано с двух точек зрения:

·      как отражение уже наблюдавшегося явления и

·      как способ предсказания его будущего.

Ниже мы остановимся на втором аспекте.

            Желая предсказать индивидуальное значение у при данном значении х, следует исходить из того, что оценка среднеквадратического отклонения у при данном х имеет вид

что приводит к интервалу предсказания уровня a вида

где .

            Если же нас интересует предсказание не частного значения у, а всего лишь среднего его значения (имея в виду, что речь идет об условном среднем у при данном х), то соответствующая оценка среднеквадратического отклонения М(у/x) имеет вид

а соответствующий доверительный интервал уровня a будет таким:

            Как видим, второй доверительный интервал уже первого, что и понятно: в первом случае речь идет о частном значении признака у, а во втором - лишь о его среднем значении.

 

Пример 33.1 (окончание примера 29.1). Пусть агент желает     предсказать цену дома общей площадью 20 сотен квадратных футов.

 

            Используя полученное уравнение регрессии

,

он находит, что (тыс. долл.). Однако, это всего лишь оценка, которая без указания на возможные колебания цены мало о чем говорит.

            Найдем интервал предсказания уровня 0,95:

или  (66,792; 125,116).

            Если агента интересует предсказание среднего значения цены большой совокупности домов с общей площадью 2000 квадратных футов, он воспользуется доверительным интервалом (с тем же уровнем доверия):

или (88,056; 103,852).

            Все сказанное выше хорошо видно на такой диаграмме (см. рис. 33.1)

Рис. 33.1

u

 

Коэффициент корреляции

 

            До сих пор мы занимались вопросом установления формы линейной зависимости между двумя признаками. Построенный критерий проверки гипотезы о равенстве нулю коэффициента регрессии а1 дает возможность принять либо отвергнуть ее. В случае отклонения мы все же не можем сказать, насколько хороша выбранная линейная модель и оправдана ли она вообще. В настоящем параграфе мы приведем одну характеристику линейной связи между двумя случайными величинами.

            Рассмотрим случайный вектор (x,h) и вычислим , где а - числовой параметр:

            Видим, что f(a) есть квадратный трехчлен относительно а, принимающий только неотрицательные значения, так что его дискриминант неположителен, то есть

или

или, наконец,

.

            Число

называют коэффициентом корреляции между x и h.

 

            Отметим следующие его свойства:

1.    ;

2.    Если x и h независимы, то r=0.

В самом деле, ввиду независимости имеем равенство  и r=0.

3. r = 1 тогда и только тогда, когда между  x и h существует линейная          зависимость.

            В самом деле, если r = 1, то дискриминант трехчлена f(a) равен нулю, и существует единственный корень уравнения f(a) = 0, обозначим его ао. Тогда , выражение под знаком математического ожидания равно нулю, то есть ,

или .

            Обратно, если h линейно выражается через x:

то

            Третье свойство коэффициента корреляции r дает возможность судить о качестве линейной модели регрессии.

            Имея статистическую выборку значений случайного вектора, вместо коэффициента корреляции используют его оценку

где  

,   .

           

Выборочный коэффициент корреляции r имеет свойства 1,3 коэффициента r, что позволяет использовать его как меру линейной связи между х и у.

 

Пример 34.1 По данным примера об агенте по продаже недвижимости (пример 29.1) находим

 

           

Как видим, значение r достаточно близко к единице, и выбор линейной модели оправдан.   u

 

Коэффициент детерминации

 

Определение 35.1. Коэффициентом детерминации называется квадрат коэффициента корреляции, .

 

            В статистических задачах употребляется выборочный коэффициент детерминации

            С помощью простых преобразований эту формулу можно привести к эквивалентному виду:

            Для объяснения последнего выражения заметим, что отклонение  от  можно представить в виде

            Графическая иллюстрация последнего равенства видна на рис. 35.1

Рис. 35.1

            Разность  образуется в зависимости от разности , то есть вариация выходной переменной обуславливается входной, регулируемой переменной.

            Вторая часть разности  есть разность между  и его оценкой, . Эта разность есть ошибка модели, в нее входит влияние неучтенных факторов (в примере с агентом по торговле недвижимостью это могут быть: местоположение жилья, природные факторы, количество ванных комнат и спален в доме и т.п.).

            Суммированием получаем следующее равенство:

или, после перехода к средним,

            Учитывая равенство

получаем для r2 другое выражение:

то есть коэффициент детерминации измеряет ту часть вариации выходной переменной, которая вызывается изменением входной переменной.

 

Пример 35.1 По данным примера об агенте по продаже недвижимости (пример 29.1) получен r = 0,805 , то есть r2 =0,648.

 

            Это означает, что 64,8% изменчивости цены объясняется изменением общей площади жилья. Остаток - 35,2% изменчивости - объясняется неучтенными факторами.

            Итак, общая площадь жилья есть превалирующий фактор в образовании его цены.   u

 

Заключительные замечания

 

            В случае, когда коэффициент детерминации мал (степень этого определяется самим исследователем) возникает вопрос об улучшении качества модели за счет введения новых регулируемых переменных, приходя к линейной модели вида

где - входные переменные, либо за счет усложнения модели, делая ее квадратичной, логарифмической, показательной, то есть выбирая ее в виде

либо

либо

и т.д.

 

 

 

            Отыскание неизвестных параметров производится с использованием метода наименьших квадратов, однако детальное изложение этих вопросов выходит за рамки настоящего курса.